<html xmlns:o="urn:schemas-microsoft-com:office:office"
xmlns:w="urn:schemas-microsoft-com:office:word"
xmlns="http://www.w3.org/TR/REC-html40">

<head>
<meta http-equiv=Content-Type content="text/html; charset=utf-8">
<meta name=ProgId content=Word.Document>
<meta name=Generator content="Microsoft Word 9">
<meta name=Originator content="Microsoft Word 9">
<link rel=File-List href="./Dialog_text-Dateien/filelist.xml">
<title>&lt;Заглавие&gt;</title>
<!--[if gte mso 9]><xml>
 <o:DocumentProperties>
  <o:Author>sokirko</o:Author>
  <o:Template>Normal</o:Template>
  <o:LastAuthor>sokirko</o:LastAuthor>
  <o:Revision>2</o:Revision>
  <o:LastPrinted>2003-02-28T17:19:00Z</o:LastPrinted>
  <o:Created>2003-07-24T15:55:00Z</o:Created>
  <o:LastSaved>2003-07-24T15:55:00Z</o:LastSaved>
  <o:Pages>6</o:Pages>
  <o:Words>1880</o:Words>
  <o:Characters>10720</o:Characters>
  <o:Company>hiome</o:Company>
  <o:Lines>89</o:Lines>
  <o:Paragraphs>21</o:Paragraphs>
  <o:CharactersWithSpaces>13164</o:CharactersWithSpaces>
  <o:Version>9.2812</o:Version>
 </o:DocumentProperties>
</xml><![endif]-->
<style>
<!--
 /* Font Definitions */
@font-face
	{font-family:Courier;
	panose-1:0 0 0 0 0 0 0 0 0 0;
	mso-font-charset:0;
	mso-generic-font-family:modern;
	mso-font-format:other;
	mso-font-pitch:fixed;
	mso-font-signature:3 0 0 0 1 0;}
@font-face
	{font-family:Verdana;
	panose-1:2 11 6 4 3 5 4 4 2 4;
	mso-font-charset:204;
	mso-generic-font-family:swiss;
	mso-font-pitch:variable;
	mso-font-signature:536871559 0 0 0 415 0;}
 /* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
	{mso-style-parent:"";
	margin:0in;
	margin-bottom:.0001pt;
	mso-pagination:widow-orphan;
	font-size:12.0pt;
	font-family:"Times New Roman";
	mso-fareast-font-family:"Times New Roman";
	mso-ansi-language:RU;
	mso-fareast-language:RU;}
h1
	{mso-style-next:Standard;
	margin-top:12.0pt;
	margin-right:0in;
	margin-bottom:3.0pt;
	margin-left:0in;
	mso-pagination:widow-orphan;
	page-break-after:avoid;
	mso-outline-level:1;
	font-size:16.0pt;
	font-family:Arial;
	mso-font-kerning:16.0pt;
	mso-ansi-language:RU;
	mso-fareast-language:RU;
	font-weight:bold;}
h2
	{mso-style-next:Standard;
	margin-top:12.0pt;
	margin-right:0in;
	margin-bottom:3.0pt;
	margin-left:0in;
	mso-pagination:widow-orphan;
	page-break-after:avoid;
	mso-outline-level:2;
	font-size:14.0pt;
	font-family:Arial;
	mso-ansi-language:RU;
	mso-fareast-language:RU;
	font-weight:bold;
	font-style:italic;}
p.MsoFootnoteText, li.MsoFootnoteText, div.MsoFootnoteText
	{margin:0in;
	margin-bottom:.0001pt;
	mso-pagination:widow-orphan;
	font-size:10.0pt;
	font-family:"Times New Roman";
	mso-fareast-font-family:"Times New Roman";
	mso-ansi-language:RU;
	mso-fareast-language:RU;}
span.MsoFootnoteReference
	{vertical-align:super;}
p.MsoBodyTextIndent, li.MsoBodyTextIndent, div.MsoBodyTextIndent
	{margin:0in;
	margin-bottom:.0001pt;
	text-indent:27.0pt;
	mso-pagination:widow-orphan;
	font-size:12.0pt;
	font-family:"Times New Roman";
	mso-fareast-font-family:"Times New Roman";
	mso-ansi-language:RU;
	mso-fareast-language:RU;}
p.MsoBodyTextIndent2, li.MsoBodyTextIndent2, div.MsoBodyTextIndent2
	{margin-top:0in;
	margin-right:0in;
	margin-bottom:0in;
	margin-left:27.0pt;
	margin-bottom:.0001pt;
	mso-pagination:widow-orphan;
	font-size:12.0pt;
	font-family:"Times New Roman";
	mso-fareast-font-family:"Times New Roman";
	mso-ansi-language:RU;
	mso-fareast-language:RU;}
p.MsoBodyTextIndent3, li.MsoBodyTextIndent3, div.MsoBodyTextIndent3
	{margin-right:0in;
	mso-margin-top-alt:auto;
	mso-margin-bottom-alt:auto;
	margin-left:0in;
	mso-pagination:widow-orphan;
	font-size:12.0pt;
	font-family:Verdana;
	mso-fareast-font-family:"Times New Roman";
	mso-bidi-font-family:"Times New Roman";
	color:black;}
a:link, span.MsoHyperlink
	{color:blue;
	text-decoration:underline;
	text-underline:single;}
a:visited, span.MsoHyperlinkFollowed
	{color:purple;
	text-decoration:underline;
	text-underline:single;}
p
	{margin-right:0in;
	mso-margin-top-alt:auto;
	mso-margin-bottom-alt:auto;
	margin-left:0in;
	mso-pagination:widow-orphan;
	font-size:12.0pt;
	font-family:"Times New Roman";
	mso-fareast-font-family:"Times New Roman";}
@page Section1
	{size:595.3pt 841.9pt;
	margin:56.7pt 42.5pt 56.7pt 85.05pt;
	mso-header-margin:35.4pt;
	mso-footer-margin:35.4pt;
	mso-paper-source:0;}
div.Section1
	{page:Section1;}
 /* List Definitions */
@list l0
	{mso-list-id:223108157;
	mso-list-type:hybrid;
	mso-list-template-ids:2057211898 767213448 68747289 68747291 68747279 68747289 68747291 68747279 68747289 68747291;}
@list l0:level1
	{mso-level-tab-stop:91.65pt;
	mso-level-number-position:left;
	margin-left:91.65pt;
	text-indent:-56.25pt;}
@list l1
	{mso-list-id:440031913;
	mso-list-type:hybrid;
	mso-list-template-ids:-138876204 -556529286 68747289 68747291 68747279 68747289 68747291 68747279 68747289 68747291;}
@list l1:level1
	{mso-level-tab-stop:53.25pt;
	mso-level-number-position:left;
	margin-left:53.25pt;
	text-indent:-.25in;}
@list l2
	{mso-list-id:646710482;
	mso-list-type:hybrid;
	mso-list-template-ids:-1095070922 679789634 68747289 68747291 68747279 68747289 68747291 68747279 68747289 68747291;}
@list l2:level1
	{mso-level-tab-stop:53.25pt;
	mso-level-number-position:left;
	margin-left:53.25pt;
	text-indent:-.25in;}
@list l3
	{mso-list-id:1092818882;
	mso-list-type:hybrid;
	mso-list-template-ids:221575396 -958249478 68747289 68747291 68747279 68747289 68747291 68747279 68747289 68747291;}
@list l3:level1
	{mso-level-tab-stop:53.4pt;
	mso-level-number-position:left;
	margin-left:53.4pt;
	text-indent:-.25in;}
@list l4
	{mso-list-id:1162742980;
	mso-list-type:hybrid;
	mso-list-template-ids:160443082 557992386 68747289 68747291 68747279 68747289 68747291 68747279 68747289 68747291;}
@list l4:level1
	{mso-level-tab-stop:53.25pt;
	mso-level-number-position:left;
	margin-left:53.25pt;
	text-indent:-.25in;}
@list l5
	{mso-list-id:1347055680;
	mso-list-type:hybrid;
	mso-list-template-ids:419308576 2124345886 68747289 68747291 68747279 68747289 68747291 68747279 68747289 68747291;}
@list l5:level1
	{mso-level-tab-stop:53.25pt;
	mso-level-number-position:left;
	margin-left:53.25pt;
	text-indent:-.25in;}
@list l6
	{mso-list-id:1457675682;
	mso-list-type:hybrid;
	mso-list-template-ids:-21692860 1255865016 67567641 67567643 67567631 67567641 67567643 67567631 67567641 67567643;}
@list l6:level1
	{mso-level-tab-stop:53.25pt;
	mso-level-number-position:left;
	margin-left:53.25pt;
	text-indent:-.25in;}
@list l7
	{mso-list-id:1814832078;
	mso-list-type:hybrid;
	mso-list-template-ids:1460990914 67567631 67567641 67567643 67567631 67567641 67567643 67567631 67567641 67567643;}
@list l7:level1
	{mso-level-tab-stop:.5in;
	mso-level-number-position:left;
	text-indent:-.25in;}
@list l8
	{mso-list-id:1876430036;
	mso-list-type:hybrid;
	mso-list-template-ids:-935807876 -2068781218 68747289 68747291 68747279 68747289 68747291 68747279 68747289 68747291;}
@list l8:level1
	{mso-level-tab-stop:45.0pt;
	mso-level-number-position:left;
	margin-left:45.0pt;
	text-indent:-.25in;}
@list l9
	{mso-list-id:1929800579;
	mso-list-type:hybrid;
	mso-list-template-ids:-925470894 1794255494 68747289 68747291 68747279 68747289 68747291 68747279 68747289 68747291;}
@list l9:level1
	{mso-level-tab-stop:45.0pt;
	mso-level-number-position:left;
	margin-left:45.0pt;
	text-indent:-.25in;}
@list l10
	{mso-list-id:2126650293;
	mso-list-type:hybrid;
	mso-list-template-ids:-1184039224 67567631 67567641 67567643 67567631 67567641 67567643 67567631 67567641 67567643;}
@list l10:level1
	{mso-level-tab-stop:.5in;
	mso-level-number-position:left;
	text-indent:-.25in;}
ol
	{margin-bottom:0in;}
ul
	{margin-bottom:0in;}
-->
</style>
</head>

<body lang=DE link=blue vlink=purple style='tab-interval:35.4pt'>

<div class=Section1>

<h1 align=center style='text-align:center'><span style='mso-ansi-language:DE'>DDC</span><span
lang=RU> - программа поиска по морфологически и </span><span style='mso-ansi-language:
DE'>c</span><span lang=RU>интаксически размеченному массиву</span></h1>

<h1><span lang=RU><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></h1>

<p class=MsoNormal align=center style='mso-margin-top-alt:auto;mso-margin-bottom-alt:
auto;text-align:center'><b><span lang=RU style='font-size:14.0pt;color:black'>А.
В. Сокирко<o:p></o:p></span></b></p>

<p class=MsoNormal align=center style='mso-margin-top-alt:auto;mso-margin-bottom-alt:
auto;text-align:center'><i><span lang=RU style='color:black'>Берлинская и
Бранденбургская Академия наук<o:p></o:p></span></i></p>

<p class=MsoNormal align=center style='mso-margin-top-alt:auto;mso-margin-bottom-alt:
auto;text-align:center'><span style='font-size:10.0pt;font-family:Courier;
mso-bidi-font-family:Courier;color:black;mso-ansi-language:DE'>sokirko</span><span
lang=RU style='font-size:10.0pt;font-family:Courier;mso-bidi-font-family:Courier;
color:black'>@</span><span style='font-size:10.0pt;font-family:Courier;
mso-bidi-font-family:Courier;color:black;mso-ansi-language:DE'>yandex</span><span
lang=RU style='font-size:10.0pt;font-family:Courier;mso-bidi-font-family:Courier;
color:black'>.ru<o:p></o:p></span></p>

<p class=MsoNormal align=center style='mso-margin-top-alt:auto;mso-margin-bottom-alt:
auto;text-align:center'><span lang=RU style='font-size:10.0pt;color:black'>&nbsp;<o:p></o:p></span></p>

<p class=MsoNormal><span lang=RU><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<h2><span lang=RU>Обоснование</span></h2>

<p class=MsoNormal><span lang=RU><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:35.4pt'><span lang=RU>Главным
предназначением системы </span><span style='mso-ansi-language:DE'>DDC</span><span
lang=RU> является поиск определенных слов и словосочетаний в корпусе, то есть,
по своей сути </span><span style='mso-ansi-language:DE'>DDC</span><span
lang=RU> – это конкорданс -<span style="mso-spacerun: yes">  </span>программа
поиска контекстов слова или словосочетания<span style="mso-spacerun: yes"> 
</span>в некотором корпусе. Необходимо объяснить, почему мы стали разрабатывать
собственную систему конкорданса.<span style="mso-spacerun: yes"> 
</span>Существующие системы, которые можно использовать как конкорданс, можно
поделить на два больших класса:</span></p>

<p class=MsoNormal style='margin-left:35.4pt'><span lang=RU>1.Коммерческие
системы информационного поиска (</span><span style='mso-ansi-language:DE'>Oracle</span>
<span style='mso-ansi-language:DE'>Text</span><span lang=RU>, </span><span
style='mso-ansi-language:DE'>SQL</span> <span style='mso-ansi-language:DE'>Server</span>
<span style='mso-ansi-language:DE'>Full</span><span lang=RU>-</span><span
style='mso-ansi-language:DE'>Text</span> <span style='mso-ansi-language:DE'>Indexing</span>
<span style='mso-ansi-language:DE'>AltaVista</span><span lang=RU>, </span><span
style='mso-ansi-language:DE'>Yandex</span><span lang=RU><span
style="mso-spacerun: yes">  </span>и т.д.)</span></p>

<p class=MsoNormal style='margin-left:35.4pt'><span lang=RU>2. Академические
разработки для лингвистического поиска (</span><span style='mso-ansi-language:
DE'>CQP</span><span lang=RU>, BNCweb и т.д.).</span></p>

<p class=MsoBodyTextIndent><span lang=RU>С нашей точки зрения, по отношению к
задаче лингвистического поиска первый класс систем обладает следующими
достоинствами:</span></p>

<p class=MsoNormal style='margin-left:45.0pt;text-indent:-.25in;mso-list:l8 level1 lfo2;
tab-stops:list 45.0pt'><![if !supportLists]><span lang=RU>1.<span
style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span><![endif]><span
lang=RU>Обычно нет существенных ограничений<span style="mso-spacerun: yes"> 
</span>на размер массива.</span></p>

<p class=MsoNormal style='margin-left:45.0pt;text-indent:-.25in;mso-list:l8 level1 lfo2;
tab-stops:list 45.0pt'><![if !supportLists]><span lang=RU>2.<span
style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span><![endif]><span
lang=RU>Обычно обрабатываются большое количество форматов документов входного
массива.</span></p>

<p class=MsoNormal style='margin-left:45.0pt;text-indent:-.25in;mso-list:l8 level1 lfo2;
tab-stops:list 45.0pt'><![if !supportLists]><span lang=RU>3.<span
style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span><![endif]><span
lang=RU>Обычно система<span style="mso-spacerun: yes">  </span>безопасна и
устойчива при работе в параллельном режиме в Интернете.</span></p>

<p class=MsoNormal><span lang=RU>С другой стороны, есть общие недостатки:</span><span
style='mso-ansi-language:DE'><o:p></o:p></span></p>

<p class=MsoNormal style='margin-left:53.25pt;text-indent:-.25in;mso-list:l5 level1 lfo3;
tab-stops:list 53.25pt'><![if !supportLists]><span lang=RU>1.<span
style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span><![endif]><span
lang=RU>Очень трудно, если возможно, расширять язык запросов, добавляя туда
поиск по морфологическим и синтаксическим признакам.</span></p>

<p class=MsoNormal style='margin-left:53.25pt;text-indent:-.25in;mso-list:l5 level1 lfo3;
tab-stops:list 53.25pt'><![if !supportLists]><span lang=RU>2.<span
style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span><![endif]><span
lang=RU>Результатом поиска является целый документ, тогда как лингвиста<span
style="mso-spacerun: yes">  </span>обычно интересует одно предложение.</span></p>

<p class=MsoNormal style='margin-left:53.25pt;text-indent:-.25in;mso-list:l5 level1 lfo3;
tab-stops:list 53.25pt'><![if !supportLists]><span lang=RU>3.<span
style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span><![endif]><span
lang=RU>Крайне высокая<span style="mso-spacerun: yes">  </span>цена на данные
системы.</span></p>

<p class=MsoNormal><span lang=RU>К достоинствам академических систем можно
отнести следующее:</span></p>

<p class=MsoNormal style='margin-left:53.25pt;text-indent:-.25in;mso-list:l2 level1 lfo4;
tab-stops:list 53.25pt'><![if !supportLists]><span lang=RU>1.<span
style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span><![endif]><span
lang=RU>Изначальная направленность на лингвиста: поиск по предложениям или
синтаксическим группам.</span></p>

<p class=MsoNormal style='margin-left:53.25pt;text-indent:-.25in;mso-list:l2 level1 lfo4;
tab-stops:list 53.25pt'><![if !supportLists]><span lang=RU>2.<span
style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span><![endif]><span
lang=RU>Часто предоставляется<span style="mso-spacerun: yes">  </span>полный
исходный код программы.</span></p>

<p class=MsoNormal style='margin-left:53.25pt;text-indent:-.25in;mso-list:l2 level1 lfo4;
tab-stops:list 53.25pt'><![if !supportLists]><span lang=RU>3.<span
style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span><![endif]><span
lang=RU>Низкая<span style="mso-spacerun: yes">  </span>цена или даже отсутствие
цены.</span></p>

<p class=MsoNormal><span lang=RU>Недостатки же, по нашему мнению, следующие:</span></p>

<p class=MsoNormal style='margin-left:53.25pt;text-indent:-.25in;mso-list:l1 level1 lfo5;
tab-stops:list 53.25pt'><![if !supportLists]><span lang=RU>1.<span
style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span><![endif]><span
lang=RU>Ограничение на функциональность: невозможность добавить новый<span
style="mso-spacerun: yes">  </span>файл в корпус без полного переиндексирования
или ограничение на размер или формат файлов.</span></p>

<p class=MsoNormal style='margin-left:53.25pt;text-indent:-.25in;mso-list:l1 level1 lfo5;
tab-stops:list 53.25pt'><![if !supportLists]><span lang=RU>2.<span
style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span><![endif]><span
lang=RU>Обычно система работает либо на </span><span style='mso-ansi-language:
DE'>Linux</span><span lang=RU>, либо на </span><span style='mso-ansi-language:
DE'>Windows</span><span lang=RU>.</span></p>

<p class=MsoNormal style='margin-left:53.25pt;text-indent:-.25in;mso-list:l1 level1 lfo5;
tab-stops:list 53.25pt'><![if !supportLists]><span lang=RU>3.<span
style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span><![endif]><span
lang=RU>Отсутствие документации и часто неотлаженность программы.</span></p>

<p class=MsoNormal><span lang=RU>Учитывая<span style="mso-spacerun: yes"> 
</span>все эти соображения, мы взялись за разработку<span style="mso-spacerun:
yes">  </span>собственной<span style="mso-spacerun: yes">  </span>системы
поиска.</span></p>

<p class=MsoNormal><span lang=RU><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<h2><span lang=RU>Лингвистические процессоры</span></h2>

<p class=MsoNormal><span lang=RU><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:35.4pt'><span style='mso-ansi-language:
DE'>DDC</span><span lang=RU> использует во время<span style="mso-spacerun:
yes">  </span>индексации и поиска следующие лингвистические процессоры системы
Диалинг(</span><span style='mso-ansi-language:DE'><a href="http://www.aot.ru/">www<span
lang=RU style='mso-ansi-language:RU'>.</span>aot<span lang=RU style='mso-ansi-language:
RU'>.</span>ru</a></span><span lang=RU>):</span></p>

<p class=MsoNormal style='margin-left:53.4pt;text-indent:-.25in;mso-list:l3 level1 lfo6;
tab-stops:list 53.4pt'><![if !supportLists]><span lang=RU>1.<span
style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span><![endif]><span
lang=RU>Графематический<span style="mso-spacerun: yes">  </span>процессор;</span></p>

<p class=MsoNormal style='margin-left:53.4pt;text-indent:-.25in;mso-list:l3 level1 lfo6;
tab-stops:list 53.4pt'><![if !supportLists]><span lang=RU>2.<span
style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span><![endif]><span
lang=RU>Морфологический<span style="mso-spacerun: yes">  </span>процессор;</span></p>

<p class=MsoNormal style='margin-left:53.4pt;text-indent:-.25in;mso-list:l3 level1 lfo6;
tab-stops:list 53.4pt'><![if !supportLists]><span lang=RU>3.<span
style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span><![endif]><span
lang=RU>Поверхностно-синтаксический<span style="mso-spacerun: yes"> 
</span>процессор(</span><span style='mso-ansi-language:DE'>Shallow</span> <span
style='mso-ansi-language:DE'>syntax</span><span lang=RU>).<span
style="mso-spacerun: yes">  </span></span></p>

<p class=MsoNormal style='text-indent:35.4pt'><span lang=RU>Графематический<span
style="mso-spacerun: yes">  </span>процессор делить входной<span
style="mso-spacerun: yes">  </span>текст (</span><span style='mso-ansi-language:
DE'>html</span><span lang=RU> или </span><span style='mso-ansi-language:DE'>plain</span><span
lang=RU> формат) на слова, предложения и абзацы.<span style="mso-spacerun:
yes">  </span>Морфологический процессор для каждого слова создает набор
морфологических интерпретаций, где морфологическая интерпретация<span
style="mso-spacerun: yes">  </span>- это пара &lt;</span><span
style='mso-ansi-language:DE'>P</span><span lang=RU>,</span><span
style='mso-ansi-language:DE'>G</span><span lang=RU>&gt;, где </span><span
style='mso-ansi-language:DE'>P</span><span lang=RU> – часть речи, а </span><span
style='mso-ansi-language:DE'>G</span><span lang=RU> – набор граммем.<span
style="mso-spacerun: yes">  </span>Сейчас в системе Диалинг<span
style="mso-spacerun: yes">  </span>есть три морфологических словаря – русский,
английский и немецкий, соответственно входной корпус может быть английским,
русским или немецким. Базой для немецкой морфологии послужила система Morphy(<a
href="http://www-psycho.uni-paderborn.de/lezius/">http://www-psycho.uni-paderborn.de/lezius/</a>).
Поверхностно-синтаксический процессор строит для предложения проективный набор
клауз(простых предложений) и проективный набор синтаксических групп<span
style="mso-spacerun: yes">  </span>внутри этих клауз.<span style="mso-spacerun:
yes">  </span>Группы и клаузы определяются двумя<span style="mso-spacerun:
yes">  </span>параметрами: координатами в предложении и типом, где тип – это
некоторая строковая<span style="mso-spacerun: yes">  </span>константа.</span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<h2><span lang=RU>Индексация</span></h2>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU>Один корпус для </span><span
style='mso-ansi-language:DE'>DDC</span><span lang=RU> системы состоит из трех
частей:<br>
<span style='mso-tab-count:1'>            </span>1. файл перечня<span
style="mso-spacerun: yes">  </span>всех входных текстов корпуса;</span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU><span
style='mso-tab-count:1'>   </span>2. файл опций индексирования и поиска;</span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU><span
style="mso-spacerun: yes">   </span>3. входные тексты, каждый<span
style="mso-spacerun: yes">  </span>из которых лежит в отдельном файле.</span></p>

<p class=MsoBodyTextIndent2><span lang=RU>Упрощая, можно сказать, что
существуют два типа индексов, которые надо построить: <br>
1. Индексы для предложений и абзацев,<span style="mso-spacerun: yes"> 
</span>по которым можно<span style="mso-spacerun: yes">  </span>по номеру слова
в массиве получить границы предложения, которое это слово содержит.</span></p>

<p class=MsoNormal style='margin-left:27.0pt'><span lang=RU>2. Индексы для
слов, или более обобщенно, <u>индексируемых элементов</u>, с помощью которых
можно перейти от слова ко всем его вхождениям в корпусе. </span></p>

<p class=MsoBodyTextIndent><span lang=RU>Индекс первого типа строится довольно
быстро и легко, поскольку он имеет небольшой размер относительно индекса
второго типа.</span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU>Индексы второго
типа существенным образом зависят от <u>типа</u> индексируемых элементов.
Текущая версия программы способна обрабатывать следующие типы индексируемых
элементов:</span></p>

<p class=MsoNormal style='margin-left:45.0pt;text-indent:-.25in;mso-list:l9 level1 lfo7;
tab-stops:list 45.0pt'><![if !supportLists]><span lang=RU>1.<span
style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span><![endif]><span
lang=RU>Строка (входная словоформа, лемма);</span></p>

<p class=MsoNormal style='margin-left:45.0pt;text-indent:-.25in;mso-list:l9 level1 lfo7;
tab-stops:list 45.0pt'><![if !supportLists]><span lang=RU>2.<span
style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span><![endif]><span
lang=RU>Морфологическая интерпретация;</span></p>

<p class=MsoNormal style='margin-left:45.0pt;text-indent:-.25in;mso-list:l9 level1 lfo7;
tab-stops:list 45.0pt'><![if !supportLists]><span lang=RU>3.<span
style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span><![endif]><span
lang=RU>Синтаксическая<span style="mso-spacerun: yes">  </span>группа или
клауза.</span></p>

<p class=MsoNormal style='margin-left:45.0pt;text-indent:-.25in;mso-list:l9 level1 lfo7;
tab-stops:list 45.0pt'><![if !supportLists]><span lang=RU>4.<span
style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span><![endif]><span
lang=RU>Номер входа в некоторый тезаурус.</span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU>Один индекс второго
типа состоит из упорядоченного набора уникальных индексируемых элементов,
причем от каждого элемента идет ссылка на перечень всех вхождений данного
элемента в корпусе. Например</span><span style='mso-ansi-language:DE'>:<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU>МАМА </span><span
style='mso-ansi-language:DE'>-&gt; 1, 199, 1001, 99999...<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU>МАМЕ </span><span
style='mso-ansi-language:DE'>-&gt; 1</span><span lang=RU>1</span><span
style='mso-ansi-language:DE'>1, 991, 2</span><span lang=RU>1</span><span
style='mso-ansi-language:DE'>01.</span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU>МАМУ </span><span
style='mso-ansi-language:DE'>-&gt; 1</span><span lang=RU>1</span><span
style='mso-ansi-language:DE'>, 99, 1</span><span lang=RU>1</span><span
style='mso-ansi-language:DE'>01<o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU>Одно вхождение
элемента – это четырехбайтовое число, которое является номером этого элемента
во входном корпусе, считая<span style="mso-spacerun: yes">  </span>с самого
начала корпуса. Отсюда уже следует, что один корпус для </span><span
style='mso-ansi-language:DE'>DDC</span><span lang=RU> не может содержать
более<span style="mso-spacerun: yes">  </span>2<sup>32</sup> слов.<span
style="mso-spacerun: yes">  </span>Это ограничение, будучи совершенно
неприемлемым<span style="mso-spacerun: yes">  </span>для
информационно-поисковых систем, не является, по нашему мнению, существенным для
лингвистически ориентированного поиска.</span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU>Программа
индексации работает в ограниченной памяти, это означает, что она временами
сохраняет данные на диск, освобождая таким образом оперативную память.</span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU>Ниже будут
приведены ресурсные параметры процесса индексирования<a style='mso-footnote-id:
ftn1' href="#_ftn1" name="_ftnref1" title=""><span class=MsoFootnoteReference><span
style='mso-special-character:footnote'><![if !supportFootnotes]>[1]<![endif]></span></span></a>:</span><span
lang=EN-GB style='mso-ansi-language:EN-GB'><o:p></o:p></span></p>

<table border=1 cellspacing=0 cellpadding=0 style='border-collapse:collapse;
 border:none;mso-border-alt:solid windowtext .5pt;mso-padding-alt:0in 3.5pt 0in 3.5pt'>
 <tr>
  <td width=216 valign=top style='width:162.15pt;border:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>Название корпуса</span></p>
  </td>
  <td width=76 valign=top style='width:56.8pt;border:solid windowtext .5pt;
  border-left:none;mso-border-left-alt:solid windowtext .5pt;padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>Язык</span></p>
  </td>
  <td width=72 valign=top style='width:.75in;border:solid windowtext .5pt;
  border-left:none;mso-border-left-alt:solid windowtext .5pt;padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>Число слов </span></p>
  </td>
  <td width=72 valign=top style='width:.75in;border:solid windowtext .5pt;
  border-left:none;mso-border-left-alt:solid windowtext .5pt;padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>Размер корпуса</span></p>
  </td>
  <td width=81 valign=top style='width:60.6pt;border:solid windowtext .5pt;
  border-left:none;mso-border-left-alt:solid windowtext .5pt;padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>Время </span></p>
  </td>
  <td width=75 valign=top style='width:56.4pt;border:solid windowtext .5pt;
  border-left:none;mso-border-left-alt:solid windowtext .5pt;padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>Опер. память</span></p>
  </td>
 </tr>
 <tr>
  <td width=216 valign=top style='width:162.15pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=EN-GB style='mso-ansi-language:EN-GB'>DWDS-
  corpus1<o:p></o:p></span></p>
  </td>
  <td width=76 valign=top style='width:56.8pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>немецкий</span><span lang=EN-GB
  style='mso-ansi-language:EN-GB'><o:p></o:p></span></p>
  </td>
  <td width=72 valign=top style='width:.75in;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>11 млн.</span></p>
  </td>
  <td width=72 valign=top style='width:.75in;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>85 МБ</span></p>
  </td>
  <td width=81 valign=top style='width:60.6pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>9 минут</span></p>
  </td>
  <td width=75 valign=top style='width:56.4pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>40 МБ</span></p>
  </td>
 </tr>
 <tr>
  <td width=216 valign=top style='width:162.15pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=EN-GB style='mso-ansi-language:EN-GB'>DWDS-
  corpus2<o:p></o:p></span></p>
  </td>
  <td width=76 valign=top style='width:56.8pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>немецкий</span><span lang=EN-GB
  style='mso-ansi-language:EN-GB'><o:p></o:p></span></p>
  </td>
  <td width=72 valign=top style='width:.75in;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>30 млн.</span></p>
  </td>
  <td width=72 valign=top style='width:.75in;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>160 МБ</span></p>
  </td>
  <td width=81 valign=top style='width:60.6pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=EN-GB style='mso-ansi-language:EN-GB'>20 </span><span
  lang=RU>минут</span><span lang=EN-GB style='mso-ansi-language:EN-GB'>.<o:p></o:p></span></p>
  </td>
  <td width=75 valign=top style='width:56.4pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=EN-GB style='mso-ansi-language:EN-GB'>60 </span><span
  lang=RU>МБ</span><span lang=EN-GB style='mso-ansi-language:EN-GB'><o:p></o:p></span></p>
  </td>
 </tr>
 <tr>
  <td width=216 valign=top style='width:162.15pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=EN-GB style='mso-ansi-language:EN-GB'>Moshkov-subset1<o:p></o:p></span></p>
  </td>
  <td width=76 valign=top style='width:56.8pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>русский</span></p>
  </td>
  <td width=72 valign=top style='width:.75in;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>15 млн</span></p>
  </td>
  <td width=72 valign=top style='width:.75in;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>100 МБ</span></p>
  </td>
  <td width=81 valign=top style='width:60.6pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>13 минут</span></p>
  </td>
  <td width=75 valign=top style='width:56.4pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>60 МБ</span></p>
  </td>
 </tr>
 <tr>
  <td width=216 valign=top style='width:162.15pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=EN-GB style='mso-ansi-language:EN-GB'>Moshkov</span><span
  lang=RU>-</span><span lang=EN-GB style='mso-ansi-language:EN-GB'>subset</span><span
  lang=RU>2</span></p>
  </td>
  <td width=76 valign=top style='width:56.8pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>русский</span></p>
  </td>
  <td width=72 valign=top style='width:.75in;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>54 млн.</span></p>
  </td>
  <td width=72 valign=top style='width:.75in;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=EN-GB style='mso-ansi-language:EN-GB'>350 </span><span
  lang=RU>МБ</span><span lang=EN-GB style='mso-ansi-language:EN-GB'><o:p></o:p></span></p>
  </td>
  <td width=81 valign=top style='width:60.6pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>55</span><span lang=RU style='mso-ansi-language:
  EN-GB'> </span><span lang=RU>минут</span><span lang=EN-GB style='mso-ansi-language:
  EN-GB'><o:p></o:p></span></p>
  </td>
  <td width=75 valign=top style='width:56.4pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=EN-GB style='mso-ansi-language:EN-GB'>80 </span><span
  lang=RU>МБ</span><span lang=EN-GB style='mso-ansi-language:EN-GB'><o:p></o:p></span></p>
  </td>
 </tr>
</table>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU>Скорость
индексирования зависит от опций<span style="mso-spacerun: yes"> 
</span>индексирования и, прежде всего, от языка корпуса.<span
style="mso-spacerun: yes">  </span>Для всех вышеперечисленных тестовых массивов
строился только индекс словоформ и индекс морфологических интерпретаций.</span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU>Размер полученного
индекса для тестовых массивов примерно в 1,5 раза больше самого массива. В
общем случае размера индекса зависит от настроек,<span style="mso-spacerun:
yes">  </span>в частности, можно задать параметр </span><span style='mso-ansi-language:
DE'>ArchiveOccurrences</span><span lang=RU>, который позволит<span
style="mso-spacerun: yes">  </span>сократить размер индексов на 35 процентов,
скорость обработки запросов с архивированным индексом уменьшится на 20
процентов.</span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU>Максимальный размер
проиндексированного корпуса на сегодняшний день составляет 300 млн. слов
(немецкий язык).</span></p>

<p class=MsoNormal style='text-indent:27.0pt'><span lang=RU><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<h2><span lang=RU>Язык запросов</span></h2>

<p class=MsoNormal style='margin-left:27.0pt'><span lang=RU><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal><span lang=RU>Текущая версия языка запросов </span><span
style='mso-ansi-language:DE'>DDC</span><span lang=RU> поддерживает следующие
конструкции:</span></p>

<p class=MsoNormal><span lang=RU><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<table border=1 cellspacing=0 cellpadding=0 style='border-collapse:collapse;
 border:none;mso-border-alt:solid windowtext .5pt;mso-padding-alt:0in 3.5pt 0in 3.5pt'>
 <tr>
  <td width=130 valign=top style='width:97.15pt;border:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p align=center style='text-align:center'><span lang=RU style='mso-ansi-language:
  RU'>Тип запроса<o:p></o:p></span></p>
  </td>
  <td width=156 colspan=3 valign=top style='width:117.3pt;border:solid windowtext .5pt;
  border-left:none;mso-border-left-alt:solid windowtext .5pt;padding:0in 3.5pt 0in 3.5pt'>
  <p align=center style='text-align:center'><span lang=RU style='mso-ansi-language:
  RU'>Назначение<o:p></o:p></span></p>
  </td>
  <td width=139 valign=top style='width:104.05pt;border:solid windowtext .5pt;
  border-left:none;mso-border-left-alt:solid windowtext .5pt;padding:0in 3.5pt 0in 3.5pt'>
  <p align=center style='text-align:center'><span lang=RU style='mso-ansi-language:
  RU'>Пример<o:p></o:p></span></p>
  </td>
  <td width=208 valign=top style='width:156.25pt;border:solid windowtext .5pt;
  border-left:none;mso-border-left-alt:solid windowtext .5pt;padding:0in 3.5pt 0in 3.5pt'>
  <p align=center style='text-align:center'><span lang=RU style='mso-ansi-language:
  RU'>Результат<o:p></o:p></span></p>
  </td>
 </tr>
 <tr>
  <td width=130 valign=top style='width:97.15pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><i><span lang=RU>слово</span></i><span lang=RU>*</span></p>
  </td>
  <td width=156 colspan=3 valign=top style='width:117.3pt;border-top:none;
  border-left:none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>описание слова</span></p>
  </td>
  <td width=139 valign=top style='width:104.05pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>до*</span></p>
  </td>
  <td width=208 valign=top style='width:156.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>все предложения, в которых есть слово,
  имеющее префикс &quot;до&quot;</span></p>
  </td>
 </tr>
 <tr>
  <td width=130 valign=top style='width:97.15pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>*<i>слово</i></span></p>
  </td>
  <td width=156 colspan=3 valign=top style='width:117.3pt;border-top:none;
  border-left:none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>описание слова</span></p>
  </td>
  <td width=139 valign=top style='width:104.05pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>*до</span></p>
  </td>
  <td width=208 valign=top style='width:156.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>все предложения, в которых есть слово,
  которое заканчивается на постфикс<span style="mso-spacerun: yes"> 
  </span>&quot;до&quot;</span></p>
  </td>
 </tr>
 <tr>
  <td width=130 valign=top style='width:97.15pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>[М]<br>
  (где, М – морфологическая интерпретация)</span></p>
  </td>
  <td width=156 colspan=3 valign=top style='width:117.3pt;border-top:none;
  border-left:none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>описание слова</span></p>
  </td>
  <td width=139 valign=top style='width:104.05pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>[</span><span lang=FR style='mso-ansi-language:
  FR'>C</span><span lang=RU> ед,тв]<br style='mso-special-character:line-break'>
  <![if !supportLineBreakNewLine]><br style='mso-special-character:line-break'>
  <![endif]></span></p>
  <p class=MsoNormal><![if !supportEmptyParas]>&nbsp;<![endif]><span lang=RU><o:p></o:p></span></p>
  </td>
  <td width=208 valign=top style='width:156.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>все существительные в единственном числе и
  творительном падеже</span></p>
  </td>
 </tr>
 <tr>
  <td width=130 valign=top style='width:97.15pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>@<i>слово</i></span></p>
  </td>
  <td width=156 colspan=3 valign=top style='width:117.3pt;border-top:none;
  border-left:none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>описание слова</span></p>
  </td>
  <td width=139 valign=top style='width:104.05pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>@дом</span></p>
  </td>
  <td width=208 valign=top style='width:156.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>все предложения, в которых есть словоформа
  &quot;дом&quot; (точное соответствие)</span></p>
  </td>
 </tr>
 <tr style='height:34.5pt'>
  <td width=130 rowspan=2 valign=top style='width:97.15pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0in 3.5pt 0in 3.5pt;
  height:34.5pt'>
  <p style='margin:0in;margin-bottom:.0001pt'><span lang=FR style='mso-ansi-language:
  FR'>&quot;X1 X2 … XN&quot;<o:p></o:p></span></p>
  </td>
  <td width=156 colspan=3 rowspan=2 valign=top style='width:117.3pt;border-top:
  none;border-left:none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt;height:34.5pt'>
  <p class=MsoNormal><span lang=RU>последова-</span></p>
  <p class=MsoNormal><span lang=RU>тельность слов</span></p>
  </td>
  <td width=139 valign=top style='width:104.05pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt;height:34.5pt'>
  <p class=MsoNormal><span lang=RU>&quot;мой новый дом&quot;</span></p>
  <p class=MsoNormal><![if !supportEmptyParas]>&nbsp;<![endif]><span lang=RU><o:p></o:p></span></p>
  </td>
  <td width=208 valign=top style='width:156.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt;height:34.5pt'>
  <p class=MsoNormal><span lang=RU>все предложения, в которых есть &quot;мой
  новый<span style="mso-spacerun: yes">  </span>дом&quot;</span></p>
  <p class=MsoNormal><![if !supportEmptyParas]>&nbsp;<![endif]><span lang=RU><o:p></o:p></span></p>
  </td>
 </tr>
 <tr style='height:34.5pt'>
  <td width=139 valign=top style='width:104.05pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt;height:34.5pt'>
  <p class=MsoNormal><span lang=RU>&quot;дом [Г]&quot;</span></p>
  </td>
  <td width=208 valign=top style='width:156.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt;height:34.5pt'>
  <p class=MsoNormal><span lang=RU>все предложения, в которых есть
  &quot;мой&quot;, за которым сразу идет<span style="mso-spacerun: yes"> 
  </span>какой-нибудь глагол</span></p>
  </td>
 </tr>
 <tr>
  <td width=130 valign=top style='width:97.15pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><i><span lang=EN-US style='mso-ansi-language:EN-US'>Q</span><span
  lang=RU>1</span></i><span lang=RU> &amp;&amp; </span><i><span lang=EN-US
  style='mso-ansi-language:EN-US'>Q</span><span lang=RU>2</span></i></p>
  </td>
  <td width=156 colspan=3 valign=top style='width:117.3pt;border-top:none;
  border-left:none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>конъюнкция описаний слов </span></p>
  </td>
  <td width=139 valign=top style='width:104.05pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU><span style="mso-spacerun: yes"> </span>дом
  &amp;&amp; [С ед]</span></p>
  </td>
  <td width=208 valign=top style='width:156.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>все предложения, в которых есть
  &quot;дом&quot;<span style="mso-spacerun: yes">  </span>и существительное в
  единственном числе </span></p>
  <p class=MsoNormal><span lang=RU>&nbsp;</span></p>
  </td>
 </tr>
 <tr>
  <td width=130 valign=top style='width:97.15pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><i><span lang=EN-US style='mso-ansi-language:EN-US'>Q</span><span
  lang=RU>1</span></i><span lang=RU> || </span><i><span lang=EN-US
  style='mso-ansi-language:EN-US'>Q</span><span lang=RU>2</span></i></p>
  </td>
  <td width=156 colspan=3 valign=top style='width:117.3pt;border-top:none;
  border-left:none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>дизъюнкция описаний слов</span></p>
  </td>
  <td width=139 valign=top style='width:104.05pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>[Г 2л] || [С мн]</span></p>
  </td>
  <td width=208 valign=top style='width:156.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>все предложения, в которых есть глагол во
  втором лице или существительное во множественном числе </span></p>
  <p class=MsoNormal><span lang=RU>&nbsp;</span></p>
  </td>
 </tr>
 <tr>
  <td width=130 valign=top style='width:97.15pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><i><span lang=EN-US style='mso-ansi-language:EN-US'>near(Q1;Q2;n)<o:p></o:p></span></i></p>
  </td>
  <td width=139 colspan=2 valign=top style='width:104.35pt;border-top:none;
  border-left:none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>два слова<span style="mso-spacerun: yes"> 
  </span></span></p>
  <p class=MsoNormal><span lang=RU>рядом друг с другом</span></p>
  <p class=MsoNormal><span lang=RU>0&lt;= </span><span lang=EN-US
  style='mso-ansi-language:EN-US'>n</span><span lang=RU> &lt;= 10</span></p>
  </td>
  <td width=156 colspan=2 valign=top style='width:117.0pt;border-top:none;
  border-left:none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=EN-US style='mso-ansi-language:EN-US'>NEAR</span><span
  lang=RU> (дом; [С]; 2)</span></p>
  </td>
  <td width=208 valign=top style='width:156.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>все предложения, в которых есть
  &quot;дом&quot; и какое-нибудь существительное, и между ними стоит не больше
  двух слов. </span></p>
  </td>
 </tr>
 <tr>
  <td width=165 colspan=2 valign=top style='width:124.05pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0in 3.5pt 0in 3.5pt'>
  <p style='margin:0in;margin-bottom:.0001pt'><span lang=RU style='mso-ansi-language:
  RU'>&quot;</span><span lang=FR style='mso-ansi-language:FR'>X</span><span
  lang=RU style='mso-ansi-language:RU'>1 #</span><span lang=FR
  style='mso-ansi-language:FR'>D</span><span lang=RU style='mso-ansi-language:
  RU'>1 </span><span lang=FR style='mso-ansi-language:FR'>X</span><span
  lang=RU style='mso-ansi-language:RU'>2 #</span><span lang=FR
  style='mso-ansi-language:FR'>D</span><span lang=RU style='mso-ansi-language:
  RU'>2 .. </span><span lang=FR style='mso-ansi-language:FR'>XN&quot;<o:p></o:p></span></p>
  </td>
  <td width=121 colspan=2 valign=top style='width:90.4pt;border-top:none;
  border-left:none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>последова-</span></p>
  <p class=MsoNormal><span lang=RU>тельность слов с максимальными дистанциями</span></p>
  </td>
  <td width=139 valign=top style='width:104.05pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>&quot;мой #1 дом&quot;</span></p>
  <p class=MsoNormal><span lang=RU>&nbsp;</span></p>
  </td>
  <td width=208 valign=top style='width:156.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>все предложения, в которых есть
  &quot;мой&quot;, за которым следует &quot;дом&quot;, и между ним не больше
  одного слова </span></p>
  </td>
 </tr>
 <tr>
  <td width=165 colspan=2 valign=top style='width:124.05pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0in 3.5pt 0in 3.5pt'>
  <p style='margin:0in;margin-bottom:.0001pt'><span lang=RU style='mso-ansi-language:
  RU'>_ГРУППА<o:p></o:p></span></p>
  </td>
  <td width=121 colspan=2 valign=top style='width:90.4pt;border-top:none;
  border-left:none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>синтаксическая группа или клауза</span></p>
  </td>
  <td width=139 valign=top style='width:104.05pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>_ПРЯМ_ДОП</span></p>
  </td>
  <td width=208 valign=top style='width:156.25pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 3.5pt 0in 3.5pt'>
  <p class=MsoNormal><span lang=RU>все предложения, в которых есть
  глагольная<span style="mso-spacerun: yes">  </span>группа с прямым
  дополнением.</span></p>
  </td>
 </tr>
 <![if !supportMisalignedColumns]>
 <tr height=0>
  <td width=130 style='border:none'></td>
  <td width=36 style='border:none'></td>
  <td width=103 style='border:none'></td>
  <td width=17 style='border:none'></td>
  <td width=139 style='border:none'></td>
  <td width=208 style='border:none'></td>
 </tr>
 <![endif]>
</table>

<p class=MsoNormal style='text-indent:.5in;tab-stops:.5in'><span lang=RU><br>
<br>
<span style="mso-spacerun: yes">         </span>Вообще говоря, запрос </span><span
style='mso-ansi-language:DE'>DDC</span><span lang=RU> может преследовать две
разные цели. Во-первых, пользователь может просить систему выдать ему число
предложений, удовлетворящих данному запросу, это т.н. <u>статистические запросы</u>.<span
style="mso-spacerun: yes">  </span>Во-вторых, пользователь может хотеть получить
только примеры использования данной конструкции. Мы называем такие<span
style="mso-spacerun: yes">  </span>запросы <u>запросами контекстов</u>.
Время<span style="mso-spacerun: yes">  </span>обработки <u>сложных</u>
статистических запросов должно линейно зависеть от размера массива.<span
style="mso-spacerun: yes">  </span>Что значит &quot;сложный&quot; - зависит от
конкретной<span style="mso-spacerun: yes">  </span>поисковой<span
style="mso-spacerun: yes">  </span>системы. Конечно, выдача числа
вхождений<span style="mso-spacerun: yes">  </span>данного слова в корпусе
обычно происходит за константное время, поскольку<span style="mso-spacerun:
yes">  </span>эта<span style="mso-spacerun: yes">  </span>информация включается
в индекс. Но, например, для получения числа предложений, в которые должно
входить несколько слов из запроса, уже требуется<span style="mso-spacerun:
yes">  </span>получить пересечение наборов вхождений, которое должно быть
выполнено за линейное от размера корпуса время. Запросы же контекстов обычно
работают за константное время,<span style="mso-spacerun: yes"> 
</span>поскольку пользователь всегда требует какое-то ограниченное число
примеров (20 или 30). </span></p>

<p class=MsoNormal style='text-indent:.5in;tab-stops:.5in'><span lang=RU>Различие
между статистическими запросами и запросами контекстов используется некоторыми
поисковыми системами. Например, </span><span style='mso-ansi-language:DE'>Google</span><span
lang=RU> в случае, когда число Интернет-страниц<span style="mso-spacerun:
yes">  </span>по данному запросу превышает некоторый порог, выдает уже <u>приблизительное</u>
число найденных страниц, что, я полагаю, позволяет сильно убыстрить поиск. </span></p>

<p class=MsoNormal><span lang=RU><span style='mso-tab-count:1'>            </span>Для
обоих типов запросов построение результирующего множества осуществляется
обходом в глубину дерева синтаксического разбора запроса.<span
style="mso-spacerun: yes">  </span>Это означает, что, например, для запроса (</span><span
style='mso-ansi-language:DE'>A</span><span lang=RU> || </span><span
style='mso-ansi-language:DE'>B</span><span lang=RU>) &amp;&amp; </span><span
style='mso-ansi-language:DE'>C</span><span lang=RU> сначала вычисляется
объединение<span style="mso-spacerun: yes">  </span>(</span><span
style='mso-ansi-language:DE'>A</span><span lang=RU> &amp;&amp; </span><span
style='mso-ansi-language:DE'>B</span><span lang=RU>), а потом уже главное
пересечение.<span style="mso-spacerun: yes">  </span>Принципиальная<span
style="mso-spacerun: yes">  </span>последовательность, а<span
style="mso-spacerun: yes">  </span>не параллельность вычислений пересечений<span
style="mso-spacerun: yes">  </span>и объединений приводит иногда к очень
неэффективной работе алгоритма. Если<span style="mso-spacerun: yes">   </span>в
формуле (</span><span style='mso-ansi-language:DE'>A</span><span lang=RU> || </span><span
style='mso-ansi-language:DE'>B</span><span lang=RU>) &amp;&amp; </span><span
style='mso-ansi-language:DE'>C</span><span lang=RU> мощность<span
style="mso-spacerun: yes">  </span>объединения<span style="mso-spacerun: yes"> 
</span>(</span><span style='mso-ansi-language:DE'>A</span><span lang=RU> || </span><span
style='mso-ansi-language:DE'>B</span><span lang=RU>) очень велика, а мощность
С, наоборот, низка, вычисление сначала полного объединения<span
style="mso-spacerun: yes">  </span>(</span><span style='mso-ansi-language:DE'>A</span><span
lang=RU> || </span><span style='mso-ansi-language:DE'>B</span><span lang=RU>)
не является наиболее эффективной стратегией. Чтобы до некоторой<span
style="mso-spacerun: yes">  </span>степени преодолеть такого рода
неэффективность, весь корпус текстов<span style="mso-spacerun: yes"> 
</span>поделен на внутренние подкорпуса.<span style="mso-spacerun: yes"> 
</span>Вычисление любой формулы сначала происходит отдельно на каждом
подкорпусе, а потом все результаты<span style="mso-spacerun: yes"> 
</span>объединяются. </span><span style='mso-ansi-language:DE'>C</span><span
lang=RU> помощью разделения целого корпуса на подкорпуса мы добиваемся того,
что запросы контекстов (нестатистические) начинают работать за время, зависящее
от длины одного подкорпуса, а не от длины всего корпуса. Это происходит, потому
что порция контекстов, которую требует пользователь, обычно может быть найдена
в одном подкорпусе.</span></p>

<p class=MsoBodyTextIndent><span lang=RU>Разделение на подкорпуса<span
style="mso-spacerun: yes">  </span>также позволяет осуществлять поиск в
константной оперативной памяти. Это означает, что программа всегда может
ограничивать использование оперативной<span style="mso-spacerun: yes"> 
</span>памяти в пределах 100 Мб. Однако, например, для системы </span><span
style='mso-ansi-language:DE'>Windows</span><span lang=RU> формально небольшое
использование оперативной памяти не является главным критерием. Для </span><span
style='mso-ansi-language:DE'>Windows</span><span lang=RU> главным является
размер самого индекса. Если размер индекса существенно превышает размер
оперативной памяти, тогда<span style="mso-spacerun: yes"> 
</span>статистические запросы с большими результирующими множествами начинают
выполняться в два раза медленней.</span></p>

<p class=MsoBodyTextIndent><span lang=RU>Ниже приводится время(в секундах)<span
style="mso-spacerun: yes">  </span>выполнения запросов:</span></p>

<p class=MsoBodyTextIndent><span lang=RU><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<table border=1 cellspacing=0 cellpadding=0 style='margin-left:.45in;
 border-collapse:collapse;border:none;mso-border-alt:solid windowtext .5pt;
 mso-padding-alt:0in 5.4pt 0in 5.4pt'>
 <tr>
  <td width=115 valign=top style='width:85.9pt;border:solid windowtext .5pt;
  padding:0in 5.4pt 0in 5.4pt'>
  <p class=MsoBodyTextIndent style='text-indent:0in'><span lang=RU>Запрос</span></p>
  </td>
  <td width=73 valign=top style='width:54.7pt;border:solid windowtext .5pt;
  border-left:none;mso-border-left-alt:solid windowtext .5pt;padding:0in 5.4pt 0in 5.4pt'>
  <p class=MsoBodyTextIndent style='text-indent:0in'><span lang=RU>Тип запроса</span></p>
  </td>
  <td width=83 valign=top style='width:62.15pt;border:solid windowtext .5pt;
  border-left:none;mso-border-left-alt:solid windowtext .5pt;padding:0in 5.4pt 0in 5.4pt'>
  <p class=MsoBodyTextIndent style='text-indent:0in'><span lang=EN-GB
  style='mso-ansi-language:EN-GB'>Moshkov1</span></p>
  <p class=MsoBodyTextIndent style='text-indent:0in'><span lang=RU>Русск.</span></p>
  <p class=MsoBodyTextIndent style='text-indent:0in'><span lang=RU>15 млн</span></p>
  </td>
  <td width=83 valign=top style='width:62.15pt;border:solid windowtext .5pt;
  border-left:none;mso-border-left-alt:solid windowtext .5pt;padding:0in 5.4pt 0in 5.4pt'>
  <p class=MsoBodyTextIndent style='text-indent:0in'><span lang=EN-GB
  style='mso-ansi-language:EN-GB'>Moshkov2</span></p>
  <p class=MsoBodyTextIndent style='text-indent:0in'><span lang=RU>Русск.</span></p>
  <p class=MsoBodyTextIndent style='text-indent:0in'><span lang=RU>54 млн.</span></p>
  </td>
 </tr>
 <tr>
  <td width=115 valign=top style='width:85.9pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0in 5.4pt 0in 5.4pt'>
  <p class=MsoNormal><span lang=RU>Мама </span></p>
  </td>
  <td width=73 valign=top style='width:54.7pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 5.4pt 0in 5.4pt'>
  <p class=MsoBodyTextIndent style='text-indent:0in'><span lang=RU>(нестат.)</span></p>
  </td>
  <td width=83 valign=top style='width:62.15pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 5.4pt 0in 5.4pt'>
  <p class=MsoBodyTextIndent style='text-indent:0in'><span lang=RU>0.05</span></p>
  </td>
  <td width=83 valign=top style='width:62.15pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 5.4pt 0in 5.4pt'>
  <p class=MsoBodyTextIndent style='text-indent:0in'><span lang=RU>0.05</span></p>
  </td>
 </tr>
 <tr>
  <td width=115 valign=top style='width:85.9pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0in 5.4pt 0in 5.4pt'>
  <p class=MsoNormal><span lang=RU>Мама </span></p>
  </td>
  <td width=73 valign=top style='width:54.7pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 5.4pt 0in 5.4pt'>
  <p class=MsoBodyTextIndent style='text-indent:0in'><span lang=RU>(стат.)</span></p>
  </td>
  <td width=83 valign=top style='width:62.15pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 5.4pt 0in 5.4pt'>
  <p class=MsoBodyTextIndent style='text-indent:0in'><span style='mso-ansi-language:
  DE'>0.007<o:p></o:p></span></p>
  </td>
  <td width=83 valign=top style='width:62.15pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 5.4pt 0in 5.4pt'>
  <p class=MsoBodyTextIndent style='text-indent:0in'><span style='mso-ansi-language:
  DE'>0.015<o:p></o:p></span></p>
  </td>
 </tr>
 <tr>
  <td width=115 valign=top style='width:85.9pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0in 5.4pt 0in 5.4pt'>
  <p class=MsoNormal><span lang=RU>ба* </span></p>
  </td>
  <td width=73 valign=top style='width:54.7pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 5.4pt 0in 5.4pt'>
  <p class=MsoBodyTextIndent style='text-indent:0in'><span lang=RU>(нестат.)</span></p>
  </td>
  <td width=83 valign=top style='width:62.15pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 5.4pt 0in 5.4pt'>
  <p class=MsoBodyTextIndent style='text-indent:0in'><span lang=RU>0,06</span></p>
  </td>
  <td width=83 valign=top style='width:62.15pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 5.4pt 0in 5.4pt'>
  <p class=MsoBodyTextIndent style='text-indent:0in'><span lang=RU>0.07</span></p>
  </td>
 </tr>
 <tr>
  <td width=115 valign=top style='width:85.9pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0in 5.4pt 0in 5.4pt'>
  <p class=MsoNormal><span lang=RU>ба* </span></p>
  </td>
  <td width=73 valign=top style='width:54.7pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 5.4pt 0in 5.4pt'>
  <p class=MsoBodyTextIndent style='text-indent:0in'><span lang=RU>(стат.)</span></p>
  </td>
  <td width=83 valign=top style='width:62.15pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 5.4pt 0in 5.4pt'>
  <p class=MsoBodyTextIndent style='text-indent:0in'><span lang=RU>0.1</span></p>
  </td>
  <td width=83 valign=top style='width:62.15pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 5.4pt 0in 5.4pt'>
  <p class=MsoBodyTextIndent style='text-indent:0in'><span lang=RU>0.3</span></p>
  </td>
 </tr>
 <tr>
  <td width=115 valign=top style='width:85.9pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0in 5.4pt 0in 5.4pt'>
  <p class=MsoNormal><span lang=RU>“ [П] [С] [Г] “</span></p>
  </td>
  <td width=73 valign=top style='width:54.7pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 5.4pt 0in 5.4pt'>
  <p class=MsoBodyTextIndent style='text-indent:0in'><span lang=RU>(нестат.)</span></p>
  </td>
  <td width=83 valign=top style='width:62.15pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 5.4pt 0in 5.4pt'>
  <p class=MsoBodyTextIndent style='text-indent:0in'><span lang=RU>1,1</span></p>
  </td>
  <td width=83 valign=top style='width:62.15pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 5.4pt 0in 5.4pt'>
  <p class=MsoBodyTextIndent style='text-indent:0in'><span lang=RU>1,1</span></p>
  </td>
 </tr>
 <tr>
  <td width=115 valign=top style='width:85.9pt;border:solid windowtext .5pt;
  border-top:none;mso-border-top-alt:solid windowtext .5pt;padding:0in 5.4pt 0in 5.4pt'>
  <p class=MsoBodyTextIndent style='text-indent:0in'><span lang=RU>“ [П] [С]
  [Г]“<a style='mso-footnote-id:ftn2' href="#_ftn2" name="_ftnref2" title=""><span
  class=MsoFootnoteReference><span style='mso-special-character:footnote'><![if !supportFootnotes]>[2]<![endif]></span></span></a></span></p>
  </td>
  <td width=73 valign=top style='width:54.7pt;border-top:none;border-left:none;
  border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 5.4pt 0in 5.4pt'>
  <p class=MsoBodyTextIndent style='text-indent:0in'><span lang=RU>(стат.)</span></p>
  </td>
  <td width=83 valign=top style='width:62.15pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 5.4pt 0in 5.4pt'>
  <p class=MsoBodyTextIndent style='text-indent:0in'><span lang=RU>2,5</span></p>
  </td>
  <td width=83 valign=top style='width:62.15pt;border-top:none;border-left:
  none;border-bottom:solid windowtext .5pt;border-right:solid windowtext .5pt;
  mso-border-top-alt:solid windowtext .5pt;mso-border-left-alt:solid windowtext .5pt;
  padding:0in 5.4pt 0in 5.4pt'>
  <p class=MsoBodyTextIndent style='text-indent:0in'><span lang=RU>14</span></p>
  </td>
 </tr>
</table>

<p class=MsoNormal style='text-indent:35.4pt'><span lang=RU>В данной таблице
показано время исполнения запроса для статистических и нестатистических
запросов. Например,<span style="mso-spacerun: yes">  </span>статистический
запрос &quot;ба*&quot; для русского массива в 15 млн. слов обрабатывается за
0,1 секунду. </span></p>

<p class=MsoNormal><span lang=RU><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<h2><span lang=RU>Программная функциональность</span></h2>

<p class=MsoNormal><span lang=RU><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal style='text-indent:35.25pt'><span lang=RU>Система </span><span
style='mso-ansi-language:DE'>DDC</span><span lang=RU> написана на С++.
Компилируется под </span><span style='mso-ansi-language:DE'>GCC</span><span
lang=RU> и М</span><span style='mso-ansi-language:DE'>icrosoft</span> <span
style='mso-ansi-language:DE'>C</span><span lang=RU>++. Система работает в двух
вариантах:</span></p>

<p class=MsoNormal style='margin-left:53.25pt;text-indent:-.25in;mso-list:l6 level1 lfo9;
tab-stops:list 53.25pt'><![if !supportLists]><span lang=RU>1.<span
style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span><![endif]><span
lang=RU>однопользовательский<span style="mso-spacerun: yes">  </span>режим</span><span
style='mso-ansi-language:DE'>;</span></p>

<p class=MsoNormal style='margin-left:53.25pt;text-indent:-.25in;mso-list:l6 level1 lfo9;
tab-stops:list 53.25pt'><![if !supportLists]><span lang=RU>2.<span
style='font:7.0pt "Times New Roman"'>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span></span><![endif]><span
lang=RU>распределенный режим.</span></p>

<p class=MsoNormal><span lang=RU>В однопользовательском режиме доступны
следующие программы:</span><span style='mso-ansi-language:DE'><o:p></o:p></span></p>

<ol style='margin-top:0in' start=1 type=1>
 <li class=MsoNormal style='mso-list:l10 level1 lfo10;tab-stops:list .5in'><span
     style='mso-ansi-language:DE'>ConcordIndex</span><span lang=RU> – программа
     индексации корпуса.</span></li>
 <li class=MsoNormal style='mso-list:l10 level1 lfo10;tab-stops:list .5in'><span
     style='mso-ansi-language:DE'>ConcordSimple</span><span lang=RU> –
     программа выполнения<span style="mso-spacerun: yes">  </span>одного
     запроса, заданного в командной строке.</span></li>
 <li class=MsoNormal style='mso-list:l10 level1 lfo10;tab-stops:list .5in'><span
     style='mso-ansi-language:DE'>ConcordAdd</span><span lang=RU> – программа,
     которая сливает два проиндексированных корпуса в один, объединяя индексы.</span></li>
 <li class=MsoNormal style='mso-list:l10 level1 lfo10;tab-stops:list .5in'><span
     style='mso-ansi-language:DE'>Concordance</span><span lang=RU> – программа
     с графическим интерфейсом (только </span><span style='mso-ansi-language:
     DE'>Windows</span><span lang=RU>), которая<span style="mso-spacerun:
     yes">  </span>позволяет интерактивно индексировать и задавать запросы.<br
     style='mso-special-character:line-break'>
     <![if !supportLineBreakNewLine]><br style='mso-special-character:line-break'>
     <![endif]></span></li>
</ol>

<p class=MsoNormal><span lang=RU>В распределенном режиме доступны следующие
программы:</span></p>

<ol style='margin-top:0in' start=1 type=1>
 <li class=MsoNormal style='mso-list:l7 level1 lfo11;tab-stops:list .5in'><span
     style='mso-ansi-language:DE'>ConcordDaemon</span><span lang=RU> – демон
     под </span><span style='mso-ansi-language:DE'>Unix</span><span lang=RU>,
     способный<span style="mso-spacerun: yes">  </span>по </span><span
     style='mso-ansi-language:DE'>TCP</span><span lang=RU>/</span><span
     style='mso-ansi-language:DE'>IP</span><span lang=RU> отвечать на запросы
     по массиву.</span></li>
 <li class=MsoNormal style='mso-list:l7 level1 lfo11;tab-stops:list .5in'><span
     style='mso-ansi-language:DE'>Search</span><span lang=RU> – </span><span
     style='mso-ansi-language:DE'>CGI</span><span lang=RU>-программа, которая
     получает запросы от </span><span style='mso-ansi-language:DE'>HTML</span><span
     lang=RU>-формы и передает их </span><span style='mso-ansi-language:DE'>ConcordDaemon</span><span
     lang=RU>.</span></li>
</ol>

<p class=MsoNormal style='text-indent:.25in'><span lang=RU>Одна из опций
распределенного режима заключается<span style="mso-spacerun: yes">  </span>в
том, что разные демоны<span style="mso-spacerun: yes">  </span>могут быть
запущены на разных машинах. Каждый демон работает со своим корпусом, и
существует еще центральный демон, который<span style="mso-spacerun: yes"> 
</span>опрашивает всех остальных демонов и объединяет результаты. В
распределенной схеме проблема подсчета скорости обработки запроса становится
очень проблематичной.</span></p>

<p class=MsoNormal><span lang=RU><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<h2><span lang=RU>Благодарности</span></h2>

<p class=MsoNormal><span lang=RU><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal><span lang=RU>Автор<span style="mso-spacerun: yes"> 
</span>благодарит Берлинскую Академию Наук</span><span style='mso-ansi-language:
DE'> (Berlin-Brandenburgische Akademie der Wissenschaften) </span><span
lang=RU>за</span><span lang=RU style='mso-ansi-language:DE'> </span><span
lang=RU>поддержку</span><span lang=RU style='mso-ansi-language:DE'> </span><span
lang=RU>этого</span><span lang=RU style='mso-ansi-language:DE'> </span><span
lang=RU>проекта</span><span style='mso-ansi-language:DE'>. </span><span
lang=RU>Автор благодарен также Андрею Путрину за развитие графической<span
style="mso-spacerun: yes">  </span>оболочки </span><span style='mso-ansi-language:
DE'>DDC</span><span lang=RU> и участникам проекта </span><span
style='mso-ansi-language:DE'><a href="http://www.aot.ru/">www<span lang=RU
style='mso-ansi-language:RU'>.</span>aot<span lang=RU style='mso-ansi-language:
RU'>.</span>ru</a></span><span lang=RU> за предоставленные лингвистические
модули. Автору очень приятно отметить, что система </span><span
style='mso-ansi-language:DE'>DDC</span><span lang=RU> распространяется с
лицензией </span><span style='mso-ansi-language:DE'>LGPL</span><span lang=RU>,
любой может использовать ее бесплатно, скачав исходники с сайта </span><span
style='mso-ansi-language:DE'><a href="http://www.aot.ru/">www<span lang=RU
style='mso-ansi-language:RU'>.</span>aot<span lang=RU style='mso-ansi-language:
RU'>.</span>ru</a></span><span lang=RU>.</span></p>

<p class=MsoNormal><span lang=RU><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal><span lang=RU><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal><span lang=RU><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal><span lang=RU><![if !supportEmptyParas]>&nbsp;<![endif]><o:p></o:p></span></p>

<p class=MsoNormal><span lang=RU><span style='mso-tab-count:1'>            </span><span
style="mso-spacerun: yes"> </span></span></p>

</div>

<div style='mso-element:footnote-list'><![if !supportFootnotes]><br clear=all>

<hr align=left size=1 width="33%">

<![endif]>

<div style='mso-element:footnote' id=ftn1>

<p class=MsoFootnoteText><a style='mso-footnote-id:ftn1' href="#_ftnref1"
name="_ftn1" title=""><span class=MsoFootnoteReference><span lang=RU><span
style='mso-special-character:footnote'><![if !supportFootnotes]>[1]<![endif]></span></span></span></a><span
lang=RU> Все расчеты выполнены на </span><span lang=EN-GB style='mso-ansi-language:
EN-GB'>P</span><span lang=RU>4 1,5 </span><span lang=EN-GB style='mso-ansi-language:
EN-GB'>GHz</span><span lang=RU>, 256 </span><span lang=EN-GB style='mso-ansi-language:
EN-GB'>MB</span><span lang=RU> ОЗУ, </span><span lang=EN-GB style='mso-ansi-language:
EN-GB'>Linux</span><span lang=RU>.</span></p>

</div>

<div style='mso-element:footnote' id=ftn2>

<p class=MsoFootnoteText><a style='mso-footnote-id:ftn2' href="#_ftnref2"
name="_ftn2" title=""><span class=MsoFootnoteReference><span lang=RU><span
style='mso-special-character:footnote'><![if !supportFootnotes]>[2]<![endif]></span></span></span></a><span
lang=RU> Последовательность из трех слов, первое слово – существительное,
второе -<span style="mso-spacerun: yes">  </span>прилагательное, третье –
глагол.</span></p>

</div>

</div>

</body>

</html>
